AI产业链地图·知识库 FP4 FP8 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/FP4 FP8
更新 2026·06·17
概念 技术 / 术语

FP4 FP8

FP4 · FP8 · 低精度浮点 · 4 位浮点 · 8 位浮点

传统深度学习训练用 FP32(32 位浮点),后来逐步演进到 FP16 / BF16 → FP8 → FP4。位数越低,每秒能算的乘加越多(同样硅面积下),但单次计算精度也越低。

FP4 FP8 CONCEPT · 概念
首次提出
2022
关键参与方
NVIDIA, AMD
反向引用
4 处 · 来自 2
归属 低精度计算AI芯片第二层

FP4 / FP8(低精度浮点)

4 位 / 8 位低精度浮点数据类型。以损失少量精度换取数倍算力和能效,是当代 AI 芯片"账面算力"暴涨的关键。NVIDIA Blackwell 引入 FP4 把账面算力较 H100 提升 25 倍。

是什么

传统深度学习训练用 FP32(32 位浮点),后来逐步演进到 FP16 / BF16 → FP8 → FP4。位数越低,每秒能算的乘加越多(同样硅面积下),但单次计算精度也越低。

  • FP8 — 8 位浮点,训练和推理都广泛适用
  • FP4 — 4 位浮点,主要用于推理;少数训练场景也开始尝试

为什么关键

  • Blackwell 把账面算力做高的关键 — B200 FP4 算力达 20 PFLOPS,是 H100 的 25 倍据2-01
  • 推理场景对精度要求低 — 大模型 token 生成场景下,FP4/FP8 与 FP16 的输出质量差距小到可接受,但算力账面成倍提升
  • 从"峰值算力优先"转向"吞吐量/能效比/延迟优先" — 推理需求 2026 年起超越训练,低精度成为芯片设计核心维度(据2-01
  • NVIDIA / AMD / 国产芯片都在追赶 FP8 推理算力 — 是衡量当代 AI 芯片代际差距的关键指标
  • 结合 HBMNVLink — 低精度让单卡能装更大模型 + 跑得更快,配合大带宽内存与高速互联,决定大模型推理 TCO

演进路线

精度 位数 典型场景 量产
FP32 32 早期训练 2010s
FP16 / BF16 16 训练 + 推理 2018 起
FP8 8 训练 + 推理(Blackwell 等) 2022 起
FP4 4 推理为主,少数训练 2024 起(Blackwell)

关键玩家

  • NVIDIA — Blackwell 引入硬件 FP4,第二代 Transformer Engine
  • AMD — MI300X / MI350 / MI450 跟进 FP8/FP4
  • 云厂商 ASIC — Google TPU、AWS Trainium、Microsoft Maia 都在追 FP8/FP4 算力

关联

关键来源